在过去的十年中,深入的强化学习(RL)已经取得了长足的进步。同时,最先进的RL算法在培训时间融合方面需要大量的计算预算。最近的工作已经开始通过量子计算的角度来解决这个问题,这有望为几项传统上的艰巨任务做出理论上的速度。在这项工作中,我们研究了一类混合量子古典RL算法,我们共同称为变异量子Q-NETWORKS(VQ-DQN)。我们表明,VQ-DQN方法受到导致学习政策分歧的不稳定性的约束,研究了基于经典模拟的既定结果的重复性,并执行系统的实验以识别观察到的不稳定性的潜在解释。此外,与大多数现有的量子增强学习中现有工作相反,我们在实际量子处理单元(IBM量子设备)上执行RL算法,并研究模拟和物理量子系统之间因实施不足而进行的行为差异。我们的实验表明,与文献中相反的主张相反,与经典方法相比,即使在没有物理缺陷的情况下进行模拟,也不能最终决定是否已知量子方法,也可以提供优势。最后,我们提供了VQ-DQN作为可再现的测试床的强大,通用且经过充分测试的实现,以实现未来的实验。
translated by 谷歌翻译